经济学实证研究中常见的40个误区, 你掌握了可以发AER
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
以下是中国人民大学马光荣老师关于“经济学实证研究中常见的40个误区”的讲座内容。
关于马光荣老师,参看:那个很早就发AER的中国青年学者, 通过巧秒的空间(地理)断点设计RDD发了(小)JPE!
1. 不学理论
理论的高度决定研究的高度;讲清楚机制需要理论;从目前顶级期刊的发表出发,兼有理论和实证的文章更有优势。
2. 取法于下,读太多B类杂志
有一句话总结得很好:取法于上,仅得为中;取法于中,故为其下;取法于下,则无所得矣。
3. “广”与“专”的关系没处理好
由于人(主要是指我们这些普通人,萨缪尔森等少量全才除外)的精力有限,因此我们需要的是广泛训练以及专业研究,要有所为有所不为。
4. 操之过急
想到一个idea后,要多思考一段时间,不要太着急去看文献,避免自己的想法被既有的文献观点所占据。
5. 样本不够大
根据大数定律,样本量越大,越有可能发现规律。很多时候我们得到了一个不显著的结果,不一定是影响真的不存在,而有可能是样本量太少了。
6. 样本不够长
这一点主要是针对面板数据。以现在流行的政策评估为例,政策效应可能具有一定的滞后性,如果样本期间太短,根本体现不出来。
7. 慎用国外数据
对于非金融领域的研究,一定要慎用国外数据,不是说不行,而是我们对国外所知甚少,不清楚 别人的制度背景,不清楚数据生成过程,很容易出问题。
8. 不熟悉数据库
对于自己所使用的数据库,一定要有细致全面的了解。
9. 不描述数据
这一点我尤其赞同,很多人从来不做描述性统计就直接去跑回归,得到的结果如何让人信服?描述数据可以发现潜在的错误、极端值、变量的缺失值,以及变量的variation等等。
10. stata手册式学习
我们不要做纸上谈兵的赵括,以为看了几本参考书就会操作了,stata尽管容易上手,但多用多练习才能真正掌握。
11. 不去研究help file
这一点继续表示赞同。不少人碰到个命令不会就开始到处问人,这样无助于深入理解这个命令, 要多看看help file,看看里面的描述和举例。
12. 不写do file
这一点应该多是新手犯的毛病。
13. do file不够细致
这一点没什么多说的。
14. 不重视识别
实证研究的主要目的就是识别出因果关系,而识别的核心则在于内生性问题的解决。我们在最初选题的时候就应该考虑内生性问题。
15. 不重视稳健性检验
稳健性检验其实是文章中很重要的一部分,我们应该尽可能把审稿人能想到的都想到。常用的稳健性检验方法包括:变换核心解释变量与被解释变量,增减控制变量,变换样本,展示异质性,安慰剂检验,验证机制,排除竞争性假说等等。
16. 依靠PSM和GMM解决内生性
发现越来越多的大佬不用或者不依赖于PSM与GMM,主要原因在于他们对这两个方法的不信任,可操纵空间太大。其实从最近几年主流经济学期刊上的文章也能发现,仅仅用这两个方法的文章几乎看不到了。
17. 迷信R-square
这一点我之前已经推文介绍过了。
18. 控制变量选取不当
这里的选取不当指两个方面:遗漏变量以及过度控制。过度控制主要是指加入了bad control variable。
19. 标准误不cluster
在之前的推文里我讲过,如今报告标准误尤其是稳健标准误已经成为主流期刊文献的标准动作。马老师和其他老师们则进一步强调,稳健标准误是要的,cluster也是要的,如果不cluster,会导致标准误有偏,通常高估了显著性。
20. 只看统计显著性,不看经济显著性
这一点在新手中表现得尤其明显,看见星星就两眼放光,但是对经济显著性却视而不见。举个例 子,假如省直管县改革对经济增长三颗星正向显著,但是其效应只有0.1%甚至更低,我们很难说省直管县改革在促进经济增长上影响甚大。
21. 交互项的误区
之前也强调过,做交互项时,A、B以及A*B三者缺一不可。
22. 衡量指标选取随意
尤其是对于核心解释变量,一定要选取常用、干净的指标。
23. 不细究核心解释变量的variation
这一点好像也没什么可说的。
24. 用错虚拟变量
这一点和第18点关于控制变量的选取一样,过度使用虚拟变量会导致完全共线性,过少使用又会产生遗漏变量问题。
25. 面板数据的误区—不清楚固定效应下的variation
26. Probit模型的误区:不报告边际效应
用Probit、Logit等模型估计出来的系数是不能直接解释的,需要进行调整。这一点以后在介绍二值选择模型时细说。
27. 工具变量的误区:用错各种检验
这一点在之后关于工具变量的推文里会详细介绍。
28.DID的误区:不做检验
这里的检验主要是指共同趋势检验。另,使用DID时,关于分组(区分处理组和对照组)的制度背景要详细介绍。
29. RD的误区:被stata命令吓倒
这一点在以后介绍RD时细说。
30. PSM的误区:暗箱操作
由于PSM可以暗箱搓作,所以大佬们不怎么信任PSM的估计结果。大家如果要用PSM,那么要交代清楚用的是哪种匹配方式,匹配变量是哪些,最好多做几种匹配方式下的估计,并同时报告OLS的结果。
31. GMM的误区:暗箱操作
理由同上。大家如果要用GMM,要报告各类检验,比如AR(2)、Hansen,并同时报告OLS和FE的结果。
32.做不出结果就放弃
这一点还是在新手中表现明显。其实,只要回归结果符合现实、能够解释、能够服务于故事,即便不显著也是好结果。用马老师的话说:不显著也是可以卖的。
33. 不花时间写作
写作是相当重要同时又被大多数人忽视的一部分,据陆铭老师讲,他拒掉的很多文章,不是文章内容做的不够好,而是写得太差。若是按陈硕老师(论文大闷锅的创始人)的要求,不说改100遍,10遍总得要吧。
34. 文献综述写作
这一点可以从属于上一点。
35. 不介绍background,尤其是英文论文。
这一点暂时没什么可说的。
36. 实证结果的报告与解释
要解释经济显著性,解释每一步稳健性检验的必要性,不要为了凑内容而凑内容。
37. 回归结果表格不规范,没有注释
这个细节大家平时要注意,细节决定成败。想当初第一次投稿少不更事,审稿人特意写了一段话来批评表格的不规范,比如回归系数的小数点位数要一致等等。
38. 回复审稿人意见时不礼貌
39. 对于审稿人提出的意见不做修改,反而引述其他人的做法来为自己辩解
40. 对审稿人的回复太简短
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。